4 research outputs found

    Interpretación de carteles con la cámara de un móvil

    Get PDF
    Mucha de la información que recibimos es visual y, cada vez encontramos más cámaras y bases de datos de imágenes a nuestra disposición. Por ello, el procesamiento automático e “inteligente” de imágenes tiene mucho interés en el desarrollo de nuevas tecnologías y aplicaciones basadas en visión artificial. En particular, en este proyecto el trabajo se centra en las tecnologías en auge de aplicaciones móviles, y cómo hacer uso de las cámaras integradas en los smartphones y de su capacidad cada vez mayor de cómputo. Gracias a esto, se pueden desarrollar aplicaciones relacionadas con la visión por computador en móviles, algo impensable hasta hace poco debido a las grandes limitaciones que presentaban. En el presente proyecto se desarrolla una aplicación para el iPhone capaz de extraer el texto de carteles rectangulares presentes en una imagen. Aunque actualmente existen muchos reconocedores de caracteres, llamados Optical Character Recognitions (OCRs), que permiten extraer el texto de una imagen, sus buenos resultados están muy condicionados a cómo se presenta el texto dentro de dicha imagen. Se requiere que el usuario enfoque con mucha precisión dónde se encuentran los textos a leer. Esta situación es una gran restricción y sobretodo muy poco realista y robusta, además de no permitir aprovechar estas tecnologías para, por ejemplo, dar servicios a personas con problemas de visión. Por ello, un objetivo principal de este proyecto es desarrollar una aplicación que libere al usuario de tal restricción. El funcionamiento de la aplicación desarrollada puede resumirse en tres pasos: elección, procesamiento y lectura del texto de una imagen. Primero el usuario debe capturar una imagen. En el segundo paso se procesa dicha imagen para obtener una nueva que sea más adecuada, para que en el último paso, su texto pueda ser extraído fácilmente por un OCR ya existente integrado también en el teléfono. El trabajo desarrollado en este proyecto, se centra sobretodo en el segundo paso: diseñar e implementar un proceso por el cual obtener una imagen adecuada para conseguir unos buenos resultados con un OCR, y en diseñar un prototipo que presente un funcionamiento satisfactorio en el teléfono. Para ello, antes de comenzar con la fase de desarrollo ha sido necesario una familiarización con el entorno: desde el sistema operativo al entorno de programación, así como estudiar la viabilidad de la inclusión de librerías estándar al dispositivo. En el proyecto se ha diseñado e implementado un detector de rectángulos y un modelo para evaluar la probabilidad de que éstos contengan texto. También se han comparado tres OCRs con el fin de seleccionar aquel que mejor se adapta al proyecto y se ha integrado todo lo anterior creando un prototipo real para el iPhone. La aplicación se ha probado tanto en el simulador como en dos dispositivos físicos: un iPhone 4 y un iPod Touch. Los resultados obtenidos han sido satisfactorios, consiguiendo un prototipo realista, y que podría utilizarse tanto como traductor de textos como asistente de lectura ante deficiencias visuales

    Reconocimiento robusto de texto en imágenes de dispositivos móviles

    Get PDF
    El procesamiento automático de imágenes tiene gran interés en el desarrollo de nuevas tecnologías y aplicaciones basadas en información visual. Hasta hace poco, estas tareas han estado limitadas a realizarse en ordenadores con gran capacidad de cómputo, debido a los altos requerimientos de los algoritmos utilizados. Sin embargo, estas limitaciones van desapareciendo gracias a las últimas generaciones de teléfonos móviles, los smartphones, que poseen capacidades de procesamiento mucho más altas. En particular, dentro del campo de la visión artificial y en particular en temas de reconocimiento automático, una tarea que se ve muy beneficiada de la portabilidad a dispositivos móviles es la detección y reconocimiento de texto, ya que se han generado nuevos ámbitos de aplicación. Con este trabajo de fin de máster se propone mejorar un sistema base existente de reconocimiento de texto en imágenes. El sistema base consiste en una aplicación para móviles capaz de extraer el texto de carteles rectangulares presentes en una fotografía capturada con el móvil. Actualmente existen muchos reconocedores de caracteres, llamados OCRs (del inglés Optical Character Recognition), que permiten extraer el texto de una imagen pero sus buenos resultados están muy condicionados a cómo se presenta el texto dentro de dicha imagen. Se requiere que el usuario enfoque con mucha precisión dónde se encuentran los textos a leer. Esta situación es una gran restricción y sobretodo muy poco realista y robusta, además de no permitir aprovechar estas tecnologías para, por ejemplo, dar servi cios a personas con problemas de visión. Aunque el prototipo tomado como base para este trabajo consigue mejorar los resultados obtenidos por un OCR convencional, sigue presentando limitaciones para el uso en escenarios generales. En particular, se va a realizar una evaluación exhaustiva del prototipo, y se va a diseñar e implementar mejoras que reduzcan las limitaciones actuales que presenta, para conseguir un reconocimiento más robusto. Dado que el campo donde se enmarca este trabajo es una rama activa dentro de la visión artificial, han aparecido nuevos enfoques dentro del reconocimiento de texto que obtienen mejores resultados que los tradicionales OCRs. Por ello, también se va a diseñar y evaluar la integración de este tipo de enfoques con el trabajo realizado. Los resultados obtenidos han sido satisfactorios, consiguiendo mejorar el prototipo base. También la evaluación realizada del proceso demuestra que éste consigue mejorar los resultados de otros OCRs existentes, además de mejorar, en determinados casos, los resultados de otras técnicas de extracción de texto más modernas. Con parte de estos resultados se redactó el siguiente articulo: “Towards robust and efficient text sign reading from a mobile phone” que fue publicado en el 2nd IEEE Workshop on Mobile Vision llevado a cabo junto con el ICCV 2011

    Segmentación semántica con modelos de deep learning y etiquetados no densos

    Get PDF
    La segmentación semántica es un problema muy estudiado dentro del campo de la visión por computador que consiste en la clasificación de imágenes a nivel de píxel. Es decir, asignar una etiqueta o valor a cada uno de los píxeles de la imagen. Tiene aplicaciones muy variadas, que van desde interpretar el contenido de escenas urbanas para tareas de conducción automática hasta aplicaciones médicas que ayuden al médico a analizar la información del paciente para realizar un diagnóstico o operaciones. Como en muchos otros problemas y tareas relacionados con la visión por computador, en los últimos años se han propuesto y demostrado grandes avances en los métodos para segmentación semántica gracias, en gran parte, al reciente auge de los métodos basados en aprendizaje profundo o deep learning.\\ A pesar de que en los últimos años se están realizando mejoras constantes, los modelos de \textit{deep learning} para segmentación semántica %así como otras áreas, tienen un problema presentan un reto que dificulta su aplicabilidad a problemas de la vida real: necesitan grandes cantidades de anotaciones para entrenar los modelos. Esto es muy costoso, sobre todo porque en este caso hay que realizarlo a nivel de píxel. Muchos conjuntos de datos reales, por ejemplo datos adquiridos para tareas de monitorización del medio ambiente (grabaciones de entornos naturales, imágenes de satélite) generalmente presentan tan solo unos pocos píxeles etiquetados por imagen, que suelen venir de algunos clicks de un experto, para indicar ciertas zonas de interés en esas imágenes. Este tipo de etiquetado hace %imposible que sea muy complicado el entrenamiento de modelos densos que permitan procesar y obtener de manera automática una mayor cantidad de información de todos estos conjuntos de datos.\\ El objetivo de este trabajo es proponer nuevos métodos para resolver este problema. La idea principal es utilizar una segmentación inicial de la imagen multi-nivel de la imagen para propagar la poca información disponible. Este enfoque novedoso permite aumentar la anotación, y demostramos que pese a ser algo ruidosa, permite aprender de manera efectiva un modelo que obtenga la segmentación deseada. Este método es aplicable a cualquier tipo de dispersión de las anotaciones, siendo independiente del número de píxeles anotados. Las principales tareas desarrolladas en este proyecto son: -Estudio del estado del arte en técnicas de segmentación semántica (la mayoría basadas en técnicas de deep learning) -Propuesta y evaluación de métodos para aumentar (propagar) las etiquetas de las imágenes de entrenamiento cuando estas son dispersas y escasas -Diseño y evaluación de las arquitecturas de redes neuronales más adecuadas para resolver este problema Para validar nuestras propuestas, nos centramos en un caso de aplicación en imágenes submarinas, capturadas para monitorización de las zonas de barreras de coral. También demostramos que el método propuesto se puede aplicar a otro tipo de imágenes, como imágenes aéreas, imágenes multiespectrales y conjuntos de datos de segmentación de instancias

    Scene understanding for interactive applications

    Get PDF
    Para interactuar con el entorno, es necesario entender que está ocurriendo en la escena donde se desarrolla la acción. Décadas de investigación en el campo de la visión por computador han contribuido a conseguir sistemas que permiten interpretar de manera automática el contenido en una escena a partir de información visual. Se podría decir el objetivo principal de estos sistemas es replicar la capacidad humana para extraer toda la información a partir solo de datos visuales. Por ejemplo, uno de sus objetivos es entender como percibimosel mundo en tres dimensiones o como podemos reconocer sitios y objetos a pesar de la gran variación en su apariencia. Una de las tareas básicas para entender una escena es asignar un significado semántico a cada elemento (píxel) de una imagen. Esta tarea se puede formular como un problema de etiquetado denso el cual especifica valores (etiquetas) a cada pixel o región de una imagen. Dependiendo de la aplicación, estas etiquetas puedenrepresentar conceptos muy diferentes, desde magnitudes físicas como la información de profundidad, hasta información semántica, como la categoría de un objeto. El objetivo general en esta tesis es investigar y desarrollar nuevas técnicas para incorporar automáticamente una retroalimentación por parte del usuario, o un conocimiento previo en sistemas inteligente para conseguir analizar automáticamente el contenido de una escena. en particular,esta tesis explora dos fuentes comunes de información previa proporcionado por los usuario: interacción humana y etiquetado manual de datos de ejemplo.La primera parte de esta tesis esta dedicada a aprendizaje de información de una escena a partir de información proporcionada de manera interactiva por un usuario. Las soluciones que involucran a un usuario imponen limitaciones en el rendimiento, ya que la respuesta que se le da al usuario debe obtenerse en un tiempo interactivo. Esta tesis presenta un paradigma eficiente que aproxima cualquier magnitud por píxel a partir de unos pocos trazos del usuario. Este sistema propaga los escasos datos de entrada proporcionados por el usuario a cada píxel de la imagen. El paradigma propuesto se ha validado a través detres aplicaciones interactivas para editar imágenes, las cuales requieren un conocimiento por píxel de una cierta magnitud, con el objetivo de simular distintos efectos.Otra estrategia común para aprender a partir de información de usuarios es diseñar sistemas supervisados de aprendizaje automático. En los últimos años, las redes neuronales convolucionales han superado el estado del arte de gran variedad de problemas de reconocimiento visual. Sin embargo, para nuevas tareas, los datos necesarios de entrenamiento pueden no estar disponibles y recopilar suficientes no es siempre posible. La segunda parte de esta tesis explora como mejorar los sistema que aprenden etiquetado denso semántico a partir de imágenes previamente etiquetadas por los usuarios. En particular, se presenta y validan estrategias, basadas en los dos principales enfoques para transferir modelos basados en deep learning, para segmentación semántica, con el objetivo de poder aprender nuevas clases cuando los datos de entrenamiento no son suficientes en cantidad o precisión.Estas estrategias se han validado en varios entornos realistas muy diferentes, incluyendo entornos urbanos, imágenes aereas y imágenes submarinas.In order to interact with the environment, it is necessary to understand what is happening on it, on the scene where the action is ocurring. Decades of research in the computer vision field have contributed towards automatically achieving this scene understanding from visual information. Scene understanding is a very broad area of research within the computer vision field. We could say that it tries to replicate the human capability of extracting plenty of information from visual data. For example, we would like to understand how the people perceive the world in three dimensions or can quickly recognize places or objects despite substantial appearance variation. One of the basic tasks in scene understanding from visual data is to assign a semantic meaning to every element of the image, i.e., assign a concept or object label to every pixel in the image. This problem can be formulated as a dense image labeling problem which assigns specific values (labels) to each pixel or region in the image. Depending on the application, the labels can represent very different concepts, from a physical magnitude, such as depth information, to high level semantic information, such as an object category. The general goal in this thesis is to investigate and develop new ways to automatically incorporate human feedback or prior knowledge in intelligent systems that require scene understanding capabilities. In particular, this thesis explores two common sources of prior information from users: human interactions and human labeling of sample data. The first part of this thesis is focused on learning complex scene information from interactive human knowledge. Interactive user solutions impose limitations on the performance where the feedback to the user must be at interactive rates. This thesis presents an efficient interaction paradigm that approximates any per-pixel magnitude from a few user strokes. It propagates the sparse user input to each pixel of the image. We demonstrate the suitability of the proposed paradigm through three interactive image editing applications which require per-pixel knowledge of certain magnitude: simulate the effect of depth of field, dehazing and HDR tone mapping. Other common strategy to learn from user prior knowledge is to design supervised machine-learning approaches. In the last years, Convolutional Neural Networks (CNNs) have pushed the state-of-the-art on a broad variety of visual recognition problems. However, for new tasks, enough training data is not always available and therefore, training from scratch is not always feasible. The second part of this thesis investigates how to improve systems that learn dense semantic labeling of images from user labeled examples. In particular, we present and validate strategies, based on common transfer learning approaches, for semantic segmentation. The goal of these strategies is to learn new specific classes when there is not enough labeled data to train from scratch. We evaluate these strategies across different environments, such as autonomous driving scenes, aerial images or underwater ones.<br /
    corecore